包容性图像竞赛

Google 谷歌开发者 2018-12-15

文 / Tulsee Doshi, Google AI 产品经理

发布大型的、对公众开放的图像数据集（如 ImageNet，Open Images 和 Conceptual Captions），是推动计算机视觉领域巨大进步的因素之一。虽然这些数据集是开发实用的机器学习（ML）模型的一个极其重要的部分，但是我们已经发现，有些开源数据集在收集方式上存在地理上的偏移。因为数据集的形状告诉我们 ML 模型的学习内容，但如果有些地理区域的数据的代表数不足，低于一定比例，这种偏差可能会导致研究团体在无意中开发出一些绘制图像表现较差的模型。例如，以下图像显示在 Open Images 数据集上训练的一个标准开源图像分类器，但是由于世界各地的婚礼习俗五花八门，该分类器就无法将 “婚礼” 相关的标签准确无误地标注上去。

注：在地理上的偏移链接

https://ai.google/research/pubs/pub46553

婚礼照片（由 Google 员工捐赠），由 Open Images 数据集上训练的分类器进行标记。分类器的标签预测记录在每个图像下方

尽管 Google 正致力于构建更具代表性的数据集，但我们仍想鼓励人们在该领域进行更多的研究，以便在数据源并不完善的情况下，机器学习方法可以更强劲，并兼具包容性。这是一项重要的研究挑战，在目前创建的机器学习模型方式方法上，推动我们不断突破向前发展。良好的解决方案将有助于确保即使在某些数据源不完全包容的情况之下，也依旧可以利用它们来开发模型。

为了支持这项工作，并促进具有包容性的 ML 模型的进一步发展，我们很高兴地宣布在 Kaggle 上举办包容性图像竞赛。该项竞赛与 Conference on Neural Information Processing Systems Competition Track（神经信息处理系统竞赛轨道会议）合作，鼓励参赛者使用 Open Images，这是一个大型的，多标签的，公开的图像分类数据集，主要在北美和欧洲进行采样，训练模型对从全球不同地区采集来的图像进行评估。

注：Kaggle 上举办包容性图像竞赛链接

https://www.kaggle.com/c/inclusive-images-challenge

神经信息处理系统竞赛轨道会议链接

https://nips.cc/Conferences/2018/CompetitionTrack

Open Images 链接

https://github.com/openimages/dataset

本次比赛中的三种地理分布的数据。参赛者将在 Open Images 上训练他们的模型，Open Images 是一种广泛使用的公共可用的图像分类基准数据集，取材主要来自北美和西欧。首先在竞赛第一阶段中对模型进行评估，之后在竞赛第二阶段中再次评估模型，每个模型具有不同的地理分布，但并不披露。通过这种方式，对模型进行压力测试，使其能够在训练数据外进行包容

我们通过 Crowdsource 项目创建了两个 Challenge 数据集进行模型评估，里面邀请了世界各地的志愿者参与贡献周边环境的照片。我们希望这些由 Google 全球社区捐赠而建立的数据集将为本次竞赛提供具有挑战性的基于地理位置的压力测试。我们还计划在比赛结束时发布更多的图像，提供更多的包容数据，来进一步鼓励包容性发展。

注：Crowdsource 项目链接

https://www.wired.com/story/google-turns-to-users-to-improve-its-ai-chops-outside-the-us/

来自 Challenge 数据集标记图像的示例。按左上方顺时针方向，来自 Peter Tester，Mukesh Kumhar，HeeYoung Moon，Sudipta Pramanik，jaturan amnatbuddee，Tomi Familoni 和 Anu Subhi 捐赠的图像

包容性图像竞赛于 9 月 5 日正式启动，提供可用的培训数据和第一阶段挑战的数据集。提交结果的截止日期为 11 月 5 日星期一，测试集将于 11 月 6 日星期二发布。欲知详情以及时间表，请访问包容性图像竞赛网站。

注：包容性图像竞赛网站链接

https://www.kaggle.com/c/inclusive-images-challenge

比赛结果将在 2018 Conference on Neural Information Processing Systems（2018 年神经信息处理系统会议）上公布，我们将为排名靠前的参赛者提供旅行补助金，帮助他们来参加会议（详情请见本页）。我们期待成为社区开发更具包容性的全球图像分类算法的一份子！

注：详情请见本页链接

https://www.kaggle.com/c/inclusive-images-challenge#Travel%20Grant%20Prizes

鸣谢

在这里我们要感谢以下人士，感谢他们为实现包容性图像比赛和数据集作出的不懈努力：James Atwood，Pallavi Baljekar，Parker Barnes，Anurag Batra，Eric Breck，Peggy Chi，Tulsee Doshi，Julia Elliott，Gursheesh Kour，Akshay Gaur，Yoni Halpern ，Henry Jicha，Matthew Long，Jigyasa Saxena 和 D. Sculley。

更多 AI 相关阅读：

· 量子处理器的性能波动探究

· 重磅！Google AI 体验展即将登陆魔都！

· 概念字幕：图像字幕制作的新数据集和挑战